Constitutional AI
https://scrapbox.io/files/669de7eed1c65a001c824c2e.png
わかりやすくいうと
Constitutional AI(憲法AI)は、Anthropic社が開発したAIトレーニング手法
危険な返答をしないようにするAIへのトレーニングを、AI自体にやらせちゃう手法
従来、人間がフィードバック(RLHF)をしていたが、ものすごく工数がかかっていた それを、人ではなく、AIにやらせちゃうことで、コストも時間も短縮できる
有用で、無害で、誠実であることを保証する倫理原則を「憲法」として作る
その憲法を遵守するように、AIモデルに強化学習させる。
2023年7月にリリースされたClaude 2.0の開発からは、このアプローチが取り入れられている。 関連
仕組み
Claudeは自己監査機能を持ち、出力が倫理原則に違反していないかをチェックする。
もし人間が敵対的な質問をしてきたら
わかりません、とただ回避するように、無害な回答を言うのではなく
きちんと、そのような要求を拒否する理由を説明する、有益で無害な回答をするようになる。
Constitutional AIの学習に使われた倫理原則は、様々な情報源を組み合わせてできている。
Anthropicが独自に構築した原則
国連人権宣言
トラストとセーフティのベストプラクティス
他のAI研究機関(DeepMindのSparrow Principlesなど)
参考資料